中科大深圳团队:o1-mini突破AI模型批评能力瓶颈
这项由中国科学技术大学深圳校区、深圳大数据研究院和阿里巴巴Qwen团队联合完成的研究发表于2025年1月,论文题目为《RealCritic: Towards Effectiveness-Driven Evaluation of Language Model C
这项由中国科学技术大学深圳校区、深圳大数据研究院和阿里巴巴Qwen团队联合完成的研究发表于2025年1月,论文题目为《RealCritic: Towards Effectiveness-Driven Evaluation of Language Model C
为展示未来趋势,阿里巴巴发布了[1] 两款新开源模型 —— Qwen3-Next 80B-A3B-Thinking 与 Qwen3-Next 80B-A3B-Instruct,为研究者和开发者社区提供对新型混合专家模型 (MoE) 架构的预览。
AI大模型的数学能力是怎么实现的?最新研究给出了一份让人意外的答案。美国加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究团队联合发布实验结果,揭开了大语言模型(如Llama-3-8B)在心算任务中的“黑箱”:原来,几乎所有实际的数学运算都集中在序列最
并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到数十轮。
根据TrendForce集邦咨询最新研究,AI创造的庞大数据量正冲击全球数据中心存储设施,传统作为海量数据存储基石的Nearline HDD(近线硬盘)已出现供应短缺,促使高效能、高成本的SSD逐渐成为市场焦点,特别是大容量的QLC SSD出货可能于2026年
推理 ssd hdd qlcssd nearlinehdd 2025-09-15 13:44 8
最近国产剧圈子里,大家的“剧荒”终于有救了。别天天嚷嚷找不到能追的新剧,这两部作品刚上线就一头扎进大家的必看清单——《真相半白》和《沉睡花园》。一个专注刑侦破案,剧情紧凑,全程无水;一个把甜甜的情感和紧张的悬疑捆在一起,跟吃自助餐一样,甜口咸口都有,谁都能挑出
2025年9月10日,甲骨文股价大幅上涨,其联合创始人拉里・埃里森(Larry Ellison)一度成为全球首富。他认为,AI推理市场“将远大于”AI训练市场。
近日,演员于朦胧在其常住小区发生高楼坠亡意外,事件发生于凌晨时分。这场突如其来的不幸迅速引发全网关注,各类猜测与未经证实的信息随之蔓延,不仅让逝者家属承受额外悲痛,还意外将圈内多名艺人卷入舆论漩涡。
这篇文章之所以能够引发广泛关注和热烈讨论,背后有着深层次的逻辑结构和情感策略的巧妙运用。从信息层面来看,文章坚守核心事实,确保事件的时间、地点、人物以及关系的基本框架完整明确。
这些年,伴随着人工智能和机器人的高速发展,AI驱动已经成为了大多数人的共识,然而就最近知名机器人公司宇树科技的创始人王兴兴却表示当前机器人最大的问题还是AI模型,这却是怎么回事?为啥如此蓬勃发展的大模型不够用了?
当所有人的目光还聚焦在“一卡难求”的H100和B200时,谷歌、亚马逊、微软、Meta等科技巨头早已在另一条战线悄然布局。它们正在疯狂“囤积”一种更具杀伤力的武器:专用芯片(ASIC)。
9月11日,在2025 Inclusion·外滩大会通证经济论坛上,蚂蚁数科 CTO闫莺宣布全新推出“智能代理合约(Agentic Contract)”,将在其新一代 Layer2 区块链 Jovay 上原生部署。“这是针对智能合约的一次根本性升级”,她表示,
香港大学联合香港中文大学、北京航空航天大学和阿里巴巴的研究团队,在2025年9月发布了一项突破性研究成果。这项名为"FLUX-Reason-6M & PRISM-Bench"的研究发表于arXiv预印本平台(论文编号:arXiv:2509.09680v1),感
过去,OCR(光学字符识别)凭借将图像转为可编辑文字的能力,长期承担着金融行业的“识字官”角色,在身份验证、风险管理、合规审查等环节等环节都发挥着关键作用。
很多家长跟我反馈,孩子到了3 - 6岁,就像个“好奇宝宝”,整天追着问“为什么”。我家邻居的孩子,有一次看到天上的云彩,就特别认真地问家长,为啥云彩一会儿像兔子,一会儿又像大象。这可把家长难住了,回答吧,不知道怎么解释清楚;不回答吧,又怕打消孩子的好奇心。其实
这项由阿里巴巴淘宝天猫集团的宋小帅、吴亚南等研究人员完成的研究发表于2025年1月,论文标题为"ProgCo: Program Helps Self-Correction of Large Language Models"。有兴趣深入了解的读者可以通过GitH
在人工智能的世界里,通常大家都认为模型越大越好,就像汽车引擎越大马力越强一样。不过,由小豆科技实验室(Xiaoduo AI Lab)的王群、刘杨、林清泉、曲志久、蒋玲等研究人员在2024年12月发表的这项研究却颠覆了这一认知。他们开发的Xmodel-2虽然只有
这项由阿里巴巴淘宝天猫集团的宋小帅、吴亚南等研究人员完成的研究发表于2025年1月,论文标题为"ProgCo: Program Helps Self-Correction of Large Language Models"。有兴趣深入了解的读者可以通过GitH
当闭源大模型阵营还在“参数至上”的赛道上狂飙时,开源领域突然杀出一匹黑马——Qwen3-Next 80B。这款总参数仅800亿的模型,通过极致稀疏的MoE架构,实现了单次激活参数仅30亿的突破,训练成本降至同级别模型的十分之一,却在32K以上长文本处理中展现出
开源炸场!Qwen3-Next 80B,每次仅激活约3B;训练成本约1/10,32K以上长文本吞吐提升约10倍,原生256K。这才是开源最想看的答案。